بازشناسی زبان مبتنی بر اصلاح مدل gmm-ubm
پایان نامه
- وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی
- نویسنده سید محمد صادقی
- استاد راهنما منصور ولی جهانشاه کبودیان
- تعداد صفحات: ۱۵ صفحه ی اول
- سال انتشار 1390
چکیده
شناسایی خودکار زبان گفتاری به تشخیص زبان از روی سیگنال گفتار گفته می شود. این سیستم ها اغلب با مقایسه امتیاز تعلق سیگنال گفتار به زبان های مختلف تصمیم گیری می کنند. در این تحقیق برای اصلاح روش gmm-ubm که از روش های به روز بازشناسی زبان است، روشی جدید مبتنی بر بردارهای ویژگی منتخب مطرح شد که در آن تنها تعدادی از بردارهای ویژگی گفتار که به صورت هم پوشان در تمامی زبان ها وجود دارد و موجب ایجاد خطا می گردد، حذف گردد. در این روش با بکارگیری بردارهای ویژگی منتخب شیفت یافته کپسترال (sdc)، یک مدل مخلوط آمیزه ای (gmm) توسط دادگان غیرهم پوشان هر یک از زبان ها، از روی مدل پس زمینه جامع (ubm) تطبیق داده می شود. نتایج این روش با روش متداول gmm-ubm که روی دادگان ogi-ts برای شناسایی 5 زبان آموزش داده شده است و قبل از مرحله آموزش، نواحی سکوت با استفاده از آشکارسازی نواحی گفتاری (vad) حذف شده اند، مقایسه شده است. سیستم های بازشناسی برای سه دسته از فایل های گفتار آزمون 3 ثانیه ای، 10 ثانیه ای و 45 ثانیه ای ارزیابی شده اند و بهترین نتایج حاصله در روش مبتنی بر بردارهای منتخب نسبت به روش gmm-ubm مبتنی بر vad برای فایل های گفتار آزمون 3 ثانیه ای، 10 ثانیه ای و 45 ثانیه ای به ترتیب منجر به 29/6، 47/5 و 76/2 درصد بهبود در نرخ بازشناسی زبان (lir) شده است. در پایان برای بهبود عملکرد سیستم بازشناسی، تصمیم گیری نهایی برای انتخاب زبان هدف به عهده یک شبکه عصبی مصنوعی نهاده شده است که به عنوان یک پس پردازش گر امتیازات خروجی عمل می نماید.
منابع مشابه
بازشناسی مقاوم گوینده بر اساس مدل gmm-ubm
بازشناسی گوینده به شناسایی فرد از روی سیگنال گفتار گفته می شود. در یک سیستم بازشناسی گوینده دو بخش اصلی مطرح است، بخش اول استخراج بردارهای بازنمایی مناسب و بخش دوم استفاده از یک مدل خوب که بتواند به بهترین نحو نشان دهنده گوینده متناظر با خودش باشد، که در زمینه شناسایی گوینده بردارهای بازنمایی mfcc و مدل gmm بسیار مرسوم و مورد توجه هستند. موضوع بسیار مهمی که در سال های اخیر مورد توجه محققان قرار...
A discriminative performance metric for GMM-UBM speaker identification
Gaussian mixture modeling with universal background model (GMM-UBM) is a widely used method for speaker identification, where the GMM model is used to characterize a specific speaker’s voice. The estimation of model parameters is generally performed based on the maximum likelihood (ML) or maximum a posteriori (MAP) criteria. In this way, interspeaker information that discriminates between diffe...
متن کاملGeometric contamination for GMM/UBM speaker verification in reverberant environments
Reverberation generated by multi-path acoustic propagation in enclosures is one of the most critical issues for distant-speech speaker verification systems. While late arrivals can be treated as additive noise, early reflections critically affects the speech spectral properties that allow differentiating among speakers. Considering a standard GMM/UBM speaker verification system based on MFCC, a...
متن کاملGMM-UBM based open-set online speaker diarization
In this paper, we present an open-set online speaker diarization system. The system is based on Gaussian mixture models (GMMs), which are used as speaker models. The system starts with just 3 such models (one each for both genders and one for non-speech) and creates models for individual speakers not till the speakers occur. As more and more speakers appear, more models are created. Our system ...
متن کاملParkinson's Disease Progression Assessment from Speech Using GMM-UBM
The Gaussian Mixture Model Universal Background Model (GMM-UBM) approach is used to assess the Parkinson’s disease (PD) progression per speaker. The disease progression is assessed individually per patient following a user modelingapproach. Voiced and unvoiced segments are extracted and grouped separately to train the models. Additionally, the Bhattacharyya distance is used to estimate the diff...
متن کاملSpeaker dependent activation keyword detector based on GMM-UBM
In this paper, we present a new method for isolated keyword detection that is meant to activate a personal device from standby state. Instead of using the common method for speech recognition such as Hidden Markov Model (HMM) or Dynamic Time Warping (DTW), we modify a GMM-UBM (Gaussian Mixture Model – Universal Background Model) scheme that is better known in speaker recognition field. Since on...
متن کاملمنابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
ذخیره در منابع من قبلا به منابع من ذحیره شده{@ msg_add @}
نوع سند: پایان نامه
وزارت علوم، تحقیقات و فناوری - دانشگاه شاهد - دانشکده فنی
میزبانی شده توسط پلتفرم ابری doprax.com
copyright © 2015-2023